Medeoprichter Ilya Sutskever van OpenAI, de maker van ChatGPT, kondigde onlangs tijdens een conferentie iets aan waar de hele AI-sector voor moet vrezen.

“We hebben de top van de databerg bereikt en er komt niks meer”, zei hij afgelopen december tijdens teen toespraak bij een conferentie in Canada.

Alle bruikbare data op internet zijn inmiddels ingezet om AI-modellen te trainen. Dit proces staat bekend als ‘pre-training’ en heeft al heel wat ontwikkeling op het gebied van artificial intelligence opgeleverd. Maar de vooruitgang gaat steeds langzamer.

Dat is een bedreigend vooruitzicht voor AI-bedrijven, omdat er honderden miljarden dollars worden geïnvesteerd in de infrastructuur rond artificial intelligence, vanuit de verwachtng dat AI-modellen steeds beter worden.

Toch lijken de meeste AI-experts zich geen zorgen te maken. Waarom?

'Inference-time computing'

Er is misschien een manier om het gebrek aan bruikbare data uit de echte wereld te omzeilen. Dat komt voort uit een relatief nieuwe techniek die AI-modellen helpt langer "na te denken" over ingewikkelde taken.

Die benadering heet 'test-time' of 'inference-time' computing en splitst brede vragen op in kleinere taken, die elk een eigen prompt krijgen. Voor elke stap is een nieuwe invoer nodig en dat staat bekend als de inferentiefase in AI.

Die procedure is een ketting van redeneringen, waarbij elk deel van het probleem wordt behandeld. Het model gaat niet door naar de volgende fase, totdat het elk onderdeel goed heeft afgehandeld en komt daardoor uiteindelijk met een beter eindantwoord.

OpenAI heeft in september het model o1 gelanceerd dat gebruik maakt van 'inference-time computing'. En kort daarna kwamen Google en het Chinese AI-lab DeepSeek met vergelijkbare "redeneermodellen". 

Een zichzelf verbeterend herhaalmodel

Uit tests met die nieuwe modellen blijkt dat ze vaak betere resultaten en duidelijkere antwoorden opleveren dan de vorige generatie AI-modellen, vooral bij wiskundige vragen en soortgelijke taken.

En hier wordt het interessant. Wat als deze betere resultaten worden gebruikt als nieuwe trainingsdata? Deze berg aan nieuwe informatie kan weer teruggestopt worden in de trainingscyclus van een ander AI-model om misschien nog betere resultaten te krijgen.

Onderzoekers van Google DeepMind hebben in augustus een onderzoek gepubliceerd naar 'test-time computing'. Ze presenteerden de techniek als mogelijke manier om 'large language models' te blijven verbeteren, ondanks het probleem met verse data van externe bronnen.

"In de toekomst denken we de resultaten van test-time computing terug te kunnen stoppen in het basis-LLM (large language model, red), waardoor er een iteratieve zelfverbeteringscyclus op gang komt", schreven de onderzoekers. "Het toepassen van de uitkomsten van test-time computing moet de basis-LLM zelf verbeteren."

Kunstmatig nieuwe data creëren

De auteurs van het onderzoek waren Charlie Snell, Jaehoon Lee, Kelvin Xu en Aviral Kumar. Xu werkt nog bij Google, Kumar deels bij DeepMind, terwijl Lee bij OpenAI-concurrent Anthropic is gaan werken.

Business Insider vroeg Snell om toelichting op de nieuwe aanpak en hij vertelde dat het idee voortkomt uit "een aantal zaken die ervoor zorgden dat de pre-training niet verder kon worden opgeschaald, vooral omdat de hoeveelheid trainingsdata eindig is."

"Als je een AI-model zover kunt krijgen dat het de inferentietijdberekeningen gebruikt en de resultaten ervan verbetert, is dat een manier om betere synthetische gegevens te genereren", legt hij uit. "Dat is een heel bruikbare nieuwe bron van trainingsdata en lijkt een veelbelovende manier om de problemen met de pre-training te omzeilen."

Topman van Microsoft gelooft in nieuwe aanpak

In een recente videopodcast leek CEO Satya Nadella van Microsoft onverschillig toen hem werd gevraagd naar de vertraging bij het verbeteren van AI-modellen en het gebrek aan nieuwe trainingsdata. 

Hij omschreef 'inference-time computing' als "een nieuwe schaalwet."

"Dus je hebt 'pre-training' en dan heb je nu ook deze experimenten met 'test-time computing' die tokens creëren die teruggestopt kunnen worden in pre-training en zo zorgen voor nog krachtiger modellen", legde hij uit. "Het is denkt ik een fantastische manier om de mogelijkheden van modellen te verbeteren. 

Ook Sutskever zij tijdens zijn toespraak bij NeurIPS begin december dat 'test-time computing' een mogelijke oplossing is voor het gebrek aan trainingsdata.

Tijd om 'test-time computing' te testen

In 2025 zal de nieuwe benadering op de proef worden gesteld. Onderzoeker Snell is daar optimistisch over, maar erkent dat er uitdagingen liggen. "De afgelopen drie jaar leek het een stuk duidelijker", zegt hij over de ontwikkeling van AI. "Nu zitten we in de verkenningsfase."

De hamvraag is nu: kan de nieuwe 'test-time computing'-techniek breed worden ingezet? Snell zegt dat de techniek goed presteert bij vragen waar een bestaand antwoord op te vinden is en dat te controleren valt, zoals bij een wiskundevraagstuk.

"Maar dingen waar veel redeneerwerk aan te pas komt, zijn moeilijk te controleren. Zoals bijvoorbeeld het schrijven van een essay. Er is geen duidelijk oordeel te vellen over hoe goed dat gelukt is", legt hij uit. 

Toch zijn er al eerste tekenen van succes en Snell verwacht dat de uitkomsten van dit soort redenerende AI-modellen al gebruikt worden om nieuwe modellen te trainen. "De kans is groot dat deze synthetische data beter zijn dan wat er op internet te vinden is", zegt hij.

Als de resultaten van het o1-model van OpenAI beter zijn dan die van GPT-4, het huidige topmodel van het AI-bedrijf, dan kunnen die in theorie gebruikt worden voor toekomstige training van AI-modellen, legt Snell uit. 

Hij geeft een theoretisch voorbeeld: "Stel dat o1 een score van 90 procent behaalt op een specifieke vraag, dan kan je die antwoorden aan GPT-4 geven en dat model zal dan ook een score van 90 procent bereiken", zegt Snell.  "Als je een grote hoeveelheid deelvragen hebt, dan kan je heel veel data uit o1 krijgen en die gebruiken voor 'pre-training' van een nieuw model of voor het verder trainen van GPT-4 om dat nog beter te maken". 

Nieuwssite TechCrunch meldde in december dat het Chinese DeepSeek waarschijnlijk resultaten van het o1-model van OpenAI heeft gebruikt om zijn eigen AI-model te trainen. Hun laatste versie, DeepSeek V3, presteert relatief goed. 

"Zij waren waarschijnlijk de eerste die o1 konden reproduceren", zegt Snell. "Ik heb mensen bij OpenAI gevraagd wat ze ervan vonden. Ze zeiden dat het er hetzelfde uitzag, maar wisten niet hoe DeepSeek dat zo snel heeft kunnen doen."

LEES OOK: 4 op 5 zakelijke leiders gaat ‘blind’ af op data: tegelijk twijfelen dashboard-directeuren of dat de juiste inzichten oplevert